D3 - 辨識者們 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 3

AI/ ML & Data

數據隱私：工具和風險系列第 3 篇

D3 - 辨識者們

16th鐵人賽真累

拿湯匙的Fini

2024-09-17 17:22:51

509 瀏覽

分享至

前篇提到了許多處理複雜規模數據集的ML模型，而這篇選擇與辨識敏感數據相關者，看看他們各自的能力：

支援向量機 (SVM) 🦨：

一種監督學習模型，用於分類和回歸問題，目標是找到一條最佳的超平面(Hyperplane)，以最大化不同類別之間的間隔(margin) ; SVM 特別適合於高維空間的數據，在小樣本數據也表現良好(可使用核函數(kernel function)來處理非線性分類問題)。

超平面(Hyperplane)：在特徵空間中，SVM 通過選擇一個超平面將數據分成兩個類別。
邊界(Margin)：是超平面與最近的正負類別樣本(支撐向量)之間的距離，SVM 尋找的超平面是使兩個類別之間的邊界最大化的平面，被稱為最佳超平面(Optimal Hyperplane)。

[ wikipedia圖示概念 ]

優勢：處理高維數據、分類精度高。
適用：具多個特徵的數據集，能有效區分敏感數據與非敏感數據。

隨機森林 (Random Forest) 🎄:

隨機森林是集成學習的方法，它通過組合多個決策樹來進行分類(輸出類別是由個別樹輸出的類別眾數而定)，能夠處理數據中的不平衡。
先來看一下決策樹是什麼：
決策樹(Decision Tree) 是一種常用的機器學習模型，以樹狀結構表示，對於每個節點，計算吉尼係數以評估當前節點的純度，用來評估資料的凌亂程度，而剪枝✂️(Pruning)是用來防止決策樹過擬合的一種技術，通過去除不重要的分支來簡化樹的結構。

[ wikipedia把決策樹的聚合構建為隨機森林的原理示意圖 ]

優勢：良好準確性、抗過擬合能力強。
適用：處理大規模數據集可以自動選擇重要特徵，對於敏感資料分類效果很好。

深度學習 (Deep Learning) 🦅:

使用多層的神經網絡來學習數據中的特徵和模式，這些神經網絡通常被稱為「深度神經網絡」，它們有多個隱藏層，這些層次可以讓模型學習到數據的複雜結構。
其中選出較相關的神經網絡架構，遞迴神經網絡(RNN)：
RNN 用於處理序列數據，即具有時間或順序關係的數據，通過「循環連接」允許訊息在序列的不同時間步驟之間傳遞，但他也有一個致命缺點：梯度消失(一種在訓練時因為梯度歸零而發現訓練無效的情況)。

所以研究者們提出了改進版本，長短期記憶(LSTM)：
簡單看一下上述概念各自的架構(取自“Understanding LSTM Networks”)：

[ The repeating module in a standard RNN contains a single layer ]